پیش بینی و اولویت بندی ژن های کاندید بیماری با استفاده از داده های توالی پروتئین و رویکرد یادگیری ماشین
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده برق و کامپیوتر
- نویسنده اکرم وثیقی ذاکر
- استاد راهنما سعید جلیلی
- سال انتشار 1393
چکیده
براساس این اصل که ژنهای بیماری های مشابه احتمالاً ویژگی های مشابه دارند، تاکنون برخی روشهای یادگیری ماشین برای پیشبینی ژنهای بیماری جدید با استفاده از ژنهای شناخته شده عامل بیماری به کار گرفته شده است. روشهای پیشین معمولاً یک مدل دستهبند دوکلاسی با استفاده از ژنهای شناخته شده ی بیماری به عنوان مجموعه ی آموزشی مثبت، و ژنهای ناشناخته به عنوان مجموعه ی آموزشی منفی، ایجاد میکردند. اما مجموعه ی منفی که آنها استفاده می کردند دارای نویز است. زیرا ژنهای ناشناخته می تواند شامل ژنهای شناخته نشده ی بیماری، یعنی مجموعه ی مثبت هم باشد. بنابراین دستهبند ایجاد شده به خوبی عمل نخواهد کرد. اخیراً روش هایی مبتنی بر یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب برای شناسایی ژن های بیماری به کار گرفته شده اند. این روش ها هم منطقاً روش درستی برای ارائه راه حل برگزیده اند و هم نتایج بهتری نسبت به روش های قبل کسب کرده اند. در این پایان نامه دو روش ارائه شده است: 1) روش یادگیری تک کلاسی با استفاده از داده های مثبت و 2) روش یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب. در روش اول سعی شده است با نادیده گرفتن مجموعه بدون برچسب، اثر نامطلوب مجموعه منفی دارای نویز کاهش داده شود و با یک دسته بند تک کلاسی ژن های کاندید بیماری را دسته بندی می کنیم. سپس برای بالا بردن دقت، در روش دوم داده های بدون برچسب را هم در یادگیری دخالت می دهیم. بدین صورت که با توجه به ساختار و الگوی ژن های کاندید بیماری و همچنین با استفاده از اندازه گیری شباهت ژن های بدون برچسب به ژن های کاندید بیماری، تعدادی داده ی منفی از داده های بدون برچسب استخراج می کنیم. سپس یک دسته بند دوکلاسی با استفاده از این نمونه های منفی و نمونه های مثبت اولیه یادگیری می کنیم. در نهایت ژن های مثبت به دست آمده از دسته بند را با استفاده از تابع امتیازدهی رتبه بندی می کنیم. نتایج به دست آمده نشان می دهد که دقت دسته بندی در روش اول 7.4% و در روش دوم به مقدار 27.4% نسبت به روش های پیشین افزایش یافته است. و همینطور در نتایج اولویت بندی روش اول نرخی حدود 6% و در روش دوم نرخی حدود 7% افزایش را مشاهده می کنیم.
منابع مشابه
پیش بینی ژن های بیماری با استفاده از دسته بند تککلاسی ماشین بردار پشتیبان
Abstract: In disease gene identification and classification, users are only interested in classifying one specific class, disease genes, without considering other classes (non-disease genes). This situation is referred to as one-class classification. Existing machine learning-based methods typically use known disease gene as positive training set and unknown genes as negative training set to bu...
متن کاملشناسایی و اولویت بندی مدل های کسب و کار الکترونیکی موفق در ایران با استفاده از تکنیکهای یادگیری ماشین
تجارت و روشهای کسبوکار، یکی از مهمترین حوزههایی است که با بهکارگیری فناوریهای نوین اطلاعاتی و ارتباطی و اینترنت بهسرعت و بهشدت تحت تأثیر قرار گرفت. بسیاری از روشهای سنتی کسب درآمد متحول گشته و روشها و ارزشهای جدید فراوانی پا به عرصه وجود نهادند. در همین راستا مطالعه سیستم مدلهای کسبوکار الکترونیکی در جهان پیچیده امروز ضروری است. علیرغم اینکه برخی کسبوکارها در حوزهی کاری خود ب...
متن کاملپیش بینی روش درمان بیماری قلبی با استفاده از الگوریتم های داده کاوی
Background and Aim: Nowadays heart disease is very common and is a major cause of mortality. Proper and early diagnosis of this disease is very important. Diagnostic methods and treatments of the disease are so expensive and have many side effects. Therefore, researchers are looking for cheaper ways to diagnose it with high precision. This study aimed to identify a model for the treatment of he...
متن کاملپیش بینی رسوب معلق با استفاده از داده های هیدرولوژیک و هیدروژئومورفیک در مدل های هوشمند
برآورد دقیق مقدار رسوبات حمل شده توسط رودخانه ها، در مدیریت منابع آب از اهمیت بسیاری برخوردار است. بنابراین شناسایی و پیشنهاد مدلهای مناسب جهت برآورد رسوب معلق از اهداف مهم تلقی میشود که استفاده از روش نوین مدلهای هوشمند از جمله شبکه عصبی مصنوعی و رگرسیون بردار پشتیبان در این زمینه تحول عظیمی وجود آورده است. یک گام مهم در مدلسازی رسوب معلق با استفاده از این مدلها، انتخاب ورودیهای مناسب میباشد، ...
متن کاملThe Study of Stressful Factors in Clinical Education for Nursing Students Studying in Nursing and Midwifery College in Khorramabad
کچ هدي پ شي مز هني فده و : شزومآ لاب يني شخب ساسا ي شزومآ مهم و راتسرپ ي تسا . و هنوگ ره دوج لکشم ي شزومآ رد لاب يني ، آراک يي هدزاب و ا ني شزومآ زا شخب راچد ار لکشم م ي دنک . فده اب رضاح شهوژپ سررب ي لماوع سرتسا از ي شزومآ لاب يني رد وجشناد ناي راتسرپ ي هدکشناد راتسرپ ي و يامام ي ماـجنا داـبآ مرـخ تسا هتفرگ . شور و داوم راک : رضاح هعلاطم کي هعلاطم صوت يفي عطقم ي تسا . د...
متن کاملمدل های یادگیری ماشین برای پیش بینی تشخیص بیماری کبد
سابقه و هدف: کبد مهم ترین ارگان داخلی بدن می باشد که نقش اصلی در متابولیسم بدن دارد. بیماری کبد را نمی توان به راحتی در مراحل اولیه کشف کرد زیرا کبد حتی زمانی که قسمتی از آن نیز آسیب دیده باشد به درستی کار می کند و این خود تشخیص این بیماری را مشکل می کند. ابزارهای طبقه بندی اتوماتیک به عنوان یک ابزار کمک تشخیص باعث کاهش بار کاری پزشکان می گردد. طبقه بندی هایی که به منظور تشخیص هوشمند بیماری کبد...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده برق و کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023